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大 规模 多 核 处 理 器 测试 技术 


齐 子 初 xS 


摘 要 : 片上 多 核 处 理 器 的 发 展 使 得 片上 晶体 管 的 数量 成 倍 剧 增 ,为 测试 带 来 了 巨大 的 挑战 。 
最 显著 的 问题 集中 在 测试 向 量 急剧 增长 、 读 写 〈IO ) 资源 限制 更 为 明显 、 测 试 功 耗 成 倍增 
长 、 实 速 测试 更 为 复杂 ， 这 些 都 导致 了 测试 成 本 的 急剧 增长 。 本 文系 统 研究 了 片上 多 核 处 理 
器 测试 中 的 关键 问题 ， 重 点 介绍 了 基于 同 构 核 的 测试 访问 和 测试 控制 机 制 设计 技术 。 


关键 词 ， 微 处 理 器 测试 多 核 微 处 理 器 测试 
1 引言 


随 着 芯片 工艺 不 断 各 纳米 级 的 方向 发 展 ， 蔚 片 的 规模 越 来 越 大 ,芯片 的 测试 面临 越 来 越 
多 的 挑战 , 其 中 测试 成 本 就 是 需要 考虑 的 重要 挑战 之 一 。 测 试 成 本 不 断 升 高 的 一 个 重要 因素 
是 测试 向 量 的 急剧 增加 时 致 的 测试 时 间 的 增加 。 由 于 测试 需要 的 数据 量 与 电路 复杂 度 呈 指数 
增长 关系 ， 在 高 性 能 微 处 理 器 测试 中 ， 扫 描 测试 的 向 量 常常 达到 了 千 兆 字 节 。ITRS12007 品 
报告 预测 ，CPU 包含 的 晶体 管 数目 在 2015 年 会 达到 24 亿 ， 而 且 这 个 数据 还 在 不 断 更 新 。 
随 着 芯片 制造 工艺 的 发 展 , 单个 品 体 管 的 制造 成 本 不 断 下 降 ， 而 单个 品 体 管 的 测试 成 本 基本 
保持 不 变 ， 甚 至 由 于 纳米 级 工艺 下 新 故障 的 出 现 ,单个 晶体 管 的 测试 成 本 还 有 缓慢 上 升 的 趋 
势 。 大 量 的 测试 向 量 导 致 了 测试 时 间 和 测试 成 本 的 迅 狐 增 加 。 


为 了 最 大 程度 地 提高 多 核 系 统 测 试 的 并 行 度 ， 以 降低 测试 时 间 和 提高 测试 质量 ， 本 文系 
统 地 介绍 了 片上 多 核 处 理 器 测试 中 的 关键 问题 所 在 , 并 重点 介绍 了 基于 同 构 核 的 测试 访问 和 
测试 控制 机 制 设计 技术 。 


2 背景 


片上 多 核 处 理 器 和 众多 的 片上 系统 “SoC) 芯片 在 设计 时 有 某 些 共同 之 处 ， 即 采用 了 基 
于 核 的 设计 以 及 核 复 用 的 技术 。 基 于 核 的 设计 提高 了 芯片 的 设计 效率 ,缩短 了 心 片 设 计 的 周 
期 。 但 随 着 芯片 内 忌 核 的 增多 ， 芯 片 的 测试 变 得 越 来 越 困 难 。 由 于 对 芯片 内 所 有 的 核 很 难 同 
时 测试 ,只 能 分 批 顺序 地 进行 , 因此 就 需要 一 种 测试 控制 策略 和 适当 的 测试 通道 划分 机 制 来 
控制 对 芯片 内 的 核 的 测试 。 基 于 TP 核 的 测试 设计 主要 集中 在 三 个 方面 : 核 的 封装 器 (Wrapper) 
设计 ; 测试 访问 机 制 CTAM, Test Access Mechanism) 设计 ; 基于 核 的 测试 调度 优化 。 核 测 
试 封装 可 以 对 IP 核 进行 隔离 ， 并 提供 IP 核 与 它 所 在 的 测试 环境 之 间 的 接口 和 提供 IP 核 的 
多 种 测试 模式 。 由 于 IP 核 租 入 在 芯片 的 内 部 ， 其 输出 输入 端口 不 能 像 芯 片 的 输入 输出 引 脚 
那样 直接 访问 ， 所 以 在 某 种 程度 上 降低 了 IP 核 的 输入 和 输出 端口 的 可 控制 性 和 可 观测 性 。 
TE IP 核 封 装 设计 中 ， 需 要 控制 和 观测 IP 核 的 输入 和 输出 端口 ， 将 核 输入 和 输出 端口 与 片上 
其 他 逻辑 相隔 离 ， 使 得 被 测 IP 与 其 他 逻辑 不 相互 和 干扰， 不 受 其 他 的 核 的 影响 ， 以 达到 单独 
进行 测试 的 目的 。 测 试 访问 机 制 的 作用 是 传输 测试 数据 , 把 芯片 外 部 的 测试 激励 传输 至 被 测 
试 核 的 端口 或 者 扫描 链 上 ,并 把 测试 响应 从 被 测试 核 的 端口 或 者 扫描 链 传输 出 去 。 这 三 者 有 
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起 来 ， 能 够 最 大 程度 地 降低 复杂 多 核 芯片 的 测试 时 间 和 测试 


大 
机 地 结合 
2.1 封装 器 的 设计 技术 


为 了 满足 对 骨 入 式 内 核 的 测试 需求 ，TTTC 在 1997 FẸ 
(Standard for Embedded Core Test) 了 
利用 WBR 封装 边界 寄存 器 ，Wrapper Boundary Register) 对 核 的 输入 输 昌 


部 面向 模式 (Outward Facing Mode) 和 安全 


规模 多 核 处 理 器 测试 技术 
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CEH, J F 制 定 了 


TR T RA RA ERME 
IEEE 1500 fifi! 


模式 (Safe Mode)。 当 处 于 了 


xür 


判定 
IEEE1500 
端口 施加 测试 激 


励 和 捕获 测试 响应 。WBR 由 类 似 于 IEEE1149.1 的 边界 扫描 单元 的 单个 WBC“ 组 成 。WBR 
4 种 功能 模式 组 成 : 正常 模式 (Normal mode)、 内 部 面向 模式 (Inward Facing Mode)、 外 


E 常 模式 下 ，WBR 


外 


对 于 系统 和 核 来 说 是 透明 的 ， 此 时 核 运 行 于 正常 功能 模式 下 ;， 当 处 于 内 部 面向 模式 时 ， 核 的 
输入 由 WBR 控制 ， 而 输出 通过 WBR 来 观测 ， 在 这 一 状态 下 对 核 内 部 逻辑 测试 ， 当 处 了 
部 面向 模式 时 ， 核 的 输出 由 WBR 控制 而 输入 由 WBR 观测 ， 在 这 一 状态 下 对 核 外 部 人 次 辑 测 
试 ， 当 处 于 安全 模式 时 ， 核 的 输入 核 和 输出 处 于 一 种 固定 的 状态 。 

为 了 方便 地 测试 核 间 的 胶 


ME Bu 


路 , IEEE1500 提供 了 几 种 了 


测试 模式 : 正常 
INTEST 测试 模式 、 


判 电路 和 核 内 部 的 电 


要 的 


功能 模式 、 
EXTEST 测 


WEAN REUTERS ERY) 


能 模式 下 ， 核 
受 测试 模式 的 控制 ， 
在 正常 功能 运行 


INTEST 模式 时 ， 测 试 的 是 核 内 
励 和 响应 都 通 


的 逻辑 ， 核 内 的 激 


JN di H 


端口 不 
所 有 的 核 处 
的 状态 。 在 


过 WBR 移入 和 移 上 


Ho 此 时 WBR 


处 于 一 种 内 部 面向 模式 ， 即 核 内 


的 激励 和 响应 是 由 


和 观测 的 。 在 EXTEST 模式 时 ， 
测试 的 是 核 间 的 连 线 和 胶合 i 
0 响应 也 通过 


辑 ， 核 外 的 激励 包 


WBR 来 控制 


WBR 移入 和 移出 , fH WBR 处 于 


一 利 
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图 1.IEEE1500 £i 


图 中 : 
WBY: Wrapper Bypass Register, 3735-3545 28 

WIR: Wrapper Instruction Register， 指 令 寄存 器 

WSI/WSO: Wrapper Serial Input/Output， 串 行 输入 /输出 接口 
CFI/CFO: Cell Function Input/Output, 单 元 功能 输入 /输出 接口 
CTI/CTO: Cell Test Input/Output， 单 元 测试 输入 /输出 接口 


构 


面向 模式 , 即 核 的 输出 和 核 外 的 响应 分 别 由 WBR 控制 和 观测 ,在 处 于 旁 路 模式 时 ， 


核 内 处 于 功能 模式 ， 和 IEEE1149.1 类 似 ， 核 内 的 测试 通道 是 直接 被 旁 路 的 ， 这 样 测试 数据 


可 以 快速 地 穿 过 非 测试 核 。 图 

和 IEEE1149.1 类 似 ，IEEE1500 本 身 
并 不 对 芯片 内 部 的 测试 方法 或 者 可 测 性 
规定 。IP 核 本 身 的 测试 架构 是 芯 核 设计 


14H 


HI 


一 个 IEEE1500 测试 外 壳 的 结构 
L1 


只 对 TP FEES RE AU. EST 
计 进 行 标 准 化 , 也 不 对 系统 级 


设 1 


者 必须 要 考虑 的 问题 ， 而 系统 级 的 测试 访问 机 种 


名 


| 试 模式 进行 了 规范 ， 
的 测试 访问 机 制 进行 
| 


c— 


W 


片上 系统 的 集成 者 或 者 多 核 芯片 的 设计 者 解决 。 
2.2 测试 访问 机 制 的 设计 技术 

在 多 核 芯 片 测试 时 ， 测 试 访问 机 制 的 作用 是 传输 IP 核 的 测试 数据 ， 即 把 测试 激励 从 芯 
片 外 部 传输 至 被 测试 核 的 外 这 ， 并 把 测试 响应 从 测试 外 这 传输 至 芯片 外 部 。 目 前 在 多 核 蕊 片 


? Wrapper Boundary Cell， 边 界 暂 存 器 
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的 测试 设计 中 , 测试 访问 机 
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站 主要 有 三 种 基本 的 访问 


方式 : 多 路 选择 咒 (Multiplexed) 结构 、 


菊花 链 (Daisy-chained) 结构 、 分 布 式 的 (Distribution-based) ”结构 可， 如 图 2 所 示 。 


整个 测试 只 能 串 行 完成， 


外 


机 


测试 。 但 随 着 芯片 内 核 数 目 
端口 的 数目 有 限 ， 很 难 做 到 


(a) 多 路 选择 器 结构 


在 多 路 选择 器 的 测试 访问 机 舍 


因此 测试 时 间 比 较 长 ， 而 且 


(b) 菊花 链 的 结构 (c) 分 布 式 的 结构 
图 2. 传 统 的 测试 访问 机 制 结构 


c 


中 ， 每 个 IP 核 的 测试 输入 都 直接 连接 到 芯片 的 测试 输入 
上 ， 而 每 个 IP 核 的 测试 输出 通过 选择 器 选择 输出 到 芯片 的 测试 输出 通道 。 测 试 通道 的 数目 


等 于 测试 通道 数 最 多 的 IP 核 的 数目 。 在 多 路 选择 器 结构 中 , 任何 时 候 只 有 一 个 IP 核 被 测试 ， 


| 核 间 的 逻辑 很 难 被 测 到 。 


在 菊花 链 的 测试 访问 机 制 中 , 所 有 的 核 都 可 以 访问 所 有 的 测试 通道 , 可 以 顺序 对 每 个 核 
进行 测试 。 为 了 缩短 每 个 核 的 测试 输入 延迟 ， 对 每 个 
选择 器 来 选择 是 前 一 个 核 的 涡 
必须 引入 一 个 旁 路 的 测试 输入 与 输出 控制 逻辑 。 这 个 旁 路 逻辑 设计 起 来 比较 复杂 , 而 且 对 于 
有 很 多 个 核 的 芯片 来 说 ， 由 于 多 路 选择 器 的 级 数 比 较 多 ， 会 使 得 测试 输入 时 间 明 显 增加 。 


在 分 布 式 的 测试 访问 机 


上 结构 中 ,每 个 核 都 有 固 


被 测试 核 的 不 同 而 有 所 不 同 。 但 所 有 核 的 测试 通道 数目 之 和 等 于 总 的 测试 通道 数目 。 由 于 各 


核 都 引入 了 劳 路 存储 器 ， 并 用 一 个 多 路 


I 试 输出 数据 还 是 旁 路 的 测试 通道 数据 。 当 部 分 核 并 行 测试 时 ， 


定 的 测试 通道 , 每 个 核 的 通道 数目 根据 


IP 核 在 测试 的 时 候 没有 测试 通道 的 冲突 ， 利 用 这 种 结构 可 以 很 方便 地 对 多 个 核 进行 并 行 


的 增加 ， 所 需要 的 测试 通 
分 配给 每 个 核 足 够 的 测试 通道 。 


道 数目 也 需 随 之 增加 ， 由 于 芯片 的 读 写 


上 述 三 种 测试 访问 机 制 结构 都 有 其 特定 的 优点 和 缺点 , 在 测试 设计 中 通常 采用 集合 一 种 
或 者 多 种 的 测试 访问 机 制 结构 。 例 如 专用 测试 总 线 Test Bus" 和 集合 了 多 路 选择 器 的 测试 访问 


用 了 分 布 式 的 结构 。 也 有 其 他 的 涡 


由 和 分 布 式 的 测试 访问 机 秆 


以 及 总 线 策略 等 ,其 中 采用 总 线 策略 的 包括 复 用 系统 ， 


Switch) 四 等 。 
现 有 多 核 处 理 器 的 测试 控制 和 测试 访问 机 制 设 计 


多 核 处 理 器 测试 发 展 的 一 个 趋势 是 对 多 个 同 构 核 和 整体 蕊 片 隔离 ， 并 分 开 进行 测试 。 这 
就 需要 对 同 构 处 理 器 核 进行 测试 封装 和 对 整体 忆 片 进行 测试 分 割 并 进行 并 行 测试 。 对 同 构 核 


3 


处 理 器 进行 并 行 测试 的 
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上 结构 ， 而 Test Rail" 既 使 用 了 菊花 链 的 测试 访问 机 制 结构 也 使 
| 试 访问 机 制 设计 策略 ， 例 如 核 透明 化 策略 申 ， 隔 离 环 中 ， 


总 线 的 AMBAPI, 以 及 CAS(Core Access 


个 简单 方法 就 是 对 每 个 处 理 器 核 都 分 配 固定 的 测试 通道 来 完成 对 


大 规模 多 核 处 理 器 测试 技术 


所 有 核 的 同时 测试 。 比 较 典 型 的 有 Cell AEZ, UltraSPARC T1 A458 25", UltraSPARC 
Niagara2 处 理 器 0 等。 这 种 方法 可 以 很 快捷 地 得 到 每 个 核 的 测试 结果 。 但 随 着 多 核 处 理 器 中 
核 数目 的 增多 、 规 模 的 增 大 ， 有 限 的 测试 通道 资源 使 得 扫描 链 的 长 度 越 来 越 长 ， 大 大 增加 了 
测试 的 时 间 。 为 了 降低 测试 时 间 ， 有 些 处 理 器 采用 了 更 为 有 效 的 测试 控制 和 测试 访问 机 制 。 
其 中 最 典型 的 设计 有 AMD Opteron 4 核 芯片 站、UltraSPARC 2 核 芯片 [9 和 Vega205 芯片 。 

下 面 将 以 UltraSPARC 2 核 芯 片 和 AMD Opteron 4 核 芯片 为 例 对 目前 存在 的 同 构 多 核 处 理 器 
的 测试 控制 和 测试 访问 机 制 进行 介绍 。 


3.1 UltraSPARC 2 核 芯片 测试 控制 和 测试 访问 机 制 


UltraSPARC 2 核 的 芯片 是 最 早 研究 多 核 并 行 测试 的 处 理 器 。 为 了 达到 向 后 兼容 已 有 的 
处 理 器 核 的 可 测试 性 设计 ”技术 和 支持 后 续 的 更 多 核 的 处 理 器 设计 ， 文章 [14] 在 UltrSPARC 2 
Bo b. 给 出 了 一 种 可 扩展 多 核 处 理 器 的 可 测试 性 设计 设计 。 可 扩展 的 可 测试 性 设计 可 以 
支持 比 双核 更 多 的 多 核 处 理 器 测试 , 一 方面 既 文 持 单个 核 单 独 进行 测试 以 方便 测试 结果 的 分 
析 及 诊断 ， 另 一 方面 又 可 以 文 持 多 核 并 行 测试 来 降低 测试 时 间 。 


在 UltraSPARC 的 2 核 蕊 片 中 利用 
IEEE1149.1 的 测试 接口 对 整个 芯片 进行 测 


试 控制 和 测试 访问 。 为 了 方便 对 每 个 核 进行 UltraSPARC| £] ,. UltraSPARC 
测试 控制 ， 使 用 了 一 种 层次 化 的 符合 [pi 处 理 器 核 i uda 


IEEE1149.1 标准 的 测试 访问 端口 (TAP, Test 
Access Port)， 如 图 3 所 示 。 芯 片 内 有 一 个 顶 BUR 模块 
层 的 测试 访问 端口 〈Chip-Level TAP)， 而 每 
个 核 内 还 有 一 个 模块 级 测试 访问 端口 (Block 
TAP)。 每 个 测试 访问 端口 都 包含 标准 的 5 
Ain O TCK, TMS, TDI, TDO, TRST. I 
层 的 测试 访问 端口 控制 整个 芯片 的 边界 扫描 
链 、 以 及 芯片 的 标识 符 等 数据 存储 器 ， 并 完 图 3.UltraSPARC 的 2 核 芯片 的 TAP 
全 符合 IEEE1149.1 标准 。 


在 UltraSPARC 2 核 芯 片 中 定义 了 一 种 锁 步 Cockstep) 模式 ， 在 锁 步 模式 下 可 以 达到 对 
多 个 核 进行 扫描 测试 或 对 多 个 MBIST 进行 测试 ， 并 进行 测试 结果 的 片上 比较 。 图 4 给 出 了 
这 种 锁 步 扫描 的 结构 。UltraSPARC 芯片 被 分 为 3 部 分 : 两 个 内 核 〈Core0、Core1) 和 顶层 
的 非 核 内 逻辑 (non-core )。 在 图 .4 中 ，C0_sel 和 C1_sel 控制 是 否 测试 Core0 和 Corel. 
当 为 0 时 当前 的 内 核 被 旁 路 ,而 当 为 工时 当前 的 内 核 被 测试 ， 当 前 内 核 扫 描 输 入 为 前 一 个 内 
核 的 扫描 输出 或 者 是 读 写 的 直接 输入 。 这 种 利用 选择 器 (MUX) 网 络 的 扫描 连接 方法 可 以 
保证 对 芯片 中 的 某 一 个 部 分 或 者 某 些 部 分 进行 测试 。 当 处 于 锁 步 模式 时 ,两 个 核 的 扫描 输入 
都 直接 来 自 读 写 的 输入 , 并 用 异 或 门 进行 片上 比较 , 选择 输出 某 一 个 核 的 扫描 数据 并 给 出 两 
个 核 扫 描 的 比较 结果 。 


锁 步 模式 虽然 可 以 方便 地 对 单个 核 单 独 测试 和 对 多 个 核 并 行 测 试 , 但 由 于 采用 了 使 用 多 
KAH (MUX) 网 络 把 扫描 输入 直接 连接 到 每 个 核 的 扫描 输入 端口 和 把 每 个 核 的 扫描 输出 
直接 选择 输出 到 读 写 端口 的 方案 ， 在 核 的 数目 增加 例如 16 核 或 更 多 ) 时 ， 由 多 路 复 用 网 
络 带 来 的 大 量 全 局 连 线 会 造成 布局 布线 的 拥塞 ， 从 而 导致 物理 设计 的 困难 。 


3 Design for Test, DFT 
^ Memory built-in self-test， 存 储 器 内 建 自 测试 
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Sc. lockstep-1] | 


图 4.UltraSPARC 的 2 核 锁 步 结构 


3.2 AMD Opteron 4 核 芯片 测试 控制 和 测试 访问 机 制 


AMD Opteron 芯片 采用 了 完全 符合 
IEEE1149.1 标准 的 一 种 主 从 (Master-Slave) 
模式 的 测试 访问 端口 结构 。 主 测试 访问 端口 
结构 放 在 北桥 (Northbridge) 模块 ， 并 直接 
连接 到 顶层 标准 的 TCK、TMS、TDI、 TRSTn 
和 TDO 端口 上 。 而 从 测试 访问 端口 结构 放 在 
每 个 HI、DDR 和 每 个 处 理 器 核 〈 包 括 2 级 
缓存 (CCache)) 中 ， 如 图 5 所 示 。 


NT MES TN META c 锁 相 环 路 PLL O 二 级 缓存 
主 测试 访问 端口 发 送 给 各 个 从 测试 访问 Eu 先进 先 出 FIFO 


端口 相关 的 控制 信号 Tek, Tms, Tdi, Tdo, 公差 分 时 名 接收 器 [i.e 
Trst, 和 TapEn 来 控制 各 个 从 测试 访问 端口 的 pe ne 
操作 。 其 中 较为 特殊 的 是 TapEn 信号 ， 这 个 图 5.AMD Opteron4 核 的 结构 
诗 号 来 自 于 顶层 测试 访问 端口 内 的 配置 触发 


器 〈Configuration Register)， 用 来 控制 是 否 启用 模块 内 的 从 测试 访问 端口 。 当 某 个 模块 的 
TapEn 使 能 有 效 时 ,此 模块 内 部 的 边界 扫描 触发 器 和 指令 触发 器 与 顶层 边界 扫描 触发 器 和 指 
令 触 发 器 顺序 连接 起 来 。 当 所 有 的 TapEn 无 效 时 , TDI 直接 广播 到 各 个 从 测试 访问 端口 控 各 
嚣 上。 由 于 有 些 模块 可 能 直接 和 顶层 的 读 写 相 关 , 所 以 在 这 些 模块 内 直接 局 入 了 边界 扫描 触 
发 器 ， 而 不 是 如 UltraSPARC 2 核 蕊 片 所 设计 的 把 所 有 边界 扫描 触发 器 都 集中 到 顶层 。 对 于 
这 些 有 边界 扫描 触发 器 的 模块 ，TCK、TMS 和 TRSTn 可 以 直接 广播 到 这 些 模块 的 测试 访问 
出口 控制 器 上 ， 以 方便 对 边界 扫描 触发 器 的 直接 控制 。 


这 种 主 从 测试 访问 端口 控制 结构 可 以 把 内 部 的 每 个 模块 作为 一 个 独立 整体 进行 测试 。 每 

个 内 部 测试 访问 端口 既 支 持 IEEE1149.1 的 4 条 公共 指令 ， 也 支持 对 内 部 每 个 模块 进行 私有 
(Private) 指令 的 测试 。 另 一 方面 通过 主 测试 访问 端口 控制 器 对 从 测试 访问 端口 控制 器 的 控 
制 可 以 完成 对 内 部 每 个 模块 进行 公共 指令 的 测试 。 而 且 只 通过 IEEE1149.1 的 标准 的 几 个 端 
进行 测试 控制 ， 降 低 了 模块 间 测 试 控制 连 线 的 复杂 度 。 


Nw 


扫描 链 的 访问 机 制 是 AMD Opetron 芯片 的 一 个 最 具 特 色 的 地 方 。 为 了 提高 多 核 处 理 器 
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的 扫描 速度 , 采用 
FJ A BG 
图 6 中 


了 一 种 流水 的 扫描 输入 和 扫 


大 规模 多 核 处 理 


输出 结构 ， 如 


核 的 增 
SDI 为 扫 


加 导致 扫 


例 如 


速度 的 降低 。 
HA, SDO 为 扫 
Cmd 为 各 种 测试 指令 ， 


输出 ， 
Shift 、 


Capture. Mask 以 及 Nop 等 。 这 些 输入 端 


都 采用 存 
VA CEZ EIS] tg 


. TE 


峙 器 锁 存 的 流水 结构 送 入 到 各 个 
同一 时 刻 每 个 核 接 收 的 数 


据 是 不 同 的 ， 但 当前 核 当 前 节拍 所 接收 的 数 


据 和 前 一 个 核 前 一 节拍 所 接收 的 数据 相同 。 
利用 这 种 特点 每 个 同 构 核 当前 节拍 的 输出 可 


以 和 前 一 个 核 的 输出 延迟 


节拍 的 结果 进行 


于 扫描 链 的 数据 会 存在 
态 ), 这 些 X 态 在 测试 时 


定 的 未 知 态 (X 


是 属于 不 确定 的 数据 


(Unknown bits)， 即 使 对 于 同 构 核 ， 这 些 X 


位 也 有 可 能 不 同 。 所 以 这 些 位 不 能 够 进行 片 


HE 


SDI 也 可 以 


CE. XU 


需要 输入 向 量 屏蔽 位 (Mask )。 
来 输入 Mask 位 ， 当 输入 Mask 


位 时 ， 整 个 核 处 于 指令 空闲 Nop) 状态 ， 


使 SDI 输入 的 Mask 数据 存 入 芯片 内 的 Mask 
存储 器 中 。 


这 种 测试 控制 结构 虽然 可 以 完成 对 同 构 


核 同 时 进行 测试 ， 但 测试 控制 非常 复杂 ， 需 


要 制定 复杂 的 测试 命令 序列 。 而 ] 
EE 控制 , 来 达到 对 不 同 核 在 不 


Wi iret 


动 化 (EDA) 工具 3 
E 


rd 


成 测试 成 本 的 增长 。 


4 基于 核 马 的 可 扩展 的 测试 访问 端口 控制 器 的 设计 


已 片 的 测试 方案 已 经 变 得 不 
一 种 多 层次 的 测试 控 和 
倍数 增加 时 ,会 使 得 主 从 制 器 之 间 连 线 变 长 而 ] 
种 多 层次 的 测试 控制 结构 局 域 性 强 , 可 以 有 效 地 把 测试 控 4 
区 域内 ， 从 而 降低 测试 传输 的 时 延 和 物 到 


日 1 
Li 


制 |， 


测试 通道 , 使 得 同一 个 核 徐 内 的 核 共享 临近 下 
(TCU, Test Control Unit), 核 秘 控制 单元 (CCU，Cluster Control Unit) AU diti 


随 着 片上 核 数 的 增多 ,对 于 基于 核 的 测试 控 4 


司 时 刻 开 
不 文 持 对 这 种 结构 生成 测 
IUBE A t B PE t ES UA PR 


pa 


| 结构 。 


了 可行 


! 器 测试 技术 


图 6 所 示 。 这 种 流水 的 扫描 结 


cmd 二 -TD 由 -Pr 


图 6.AMD Opteron 4 核 处 理 
测试 访问 机 制 详细 结构 
日 需要 根据 测试 的 数据 实时 更 新 每 个 模块 的 时 钊 
启 扫 描 或 者 捕获 时 钟 的 目的 。 目前 常用 的 电子 设计 
试 向 量 ， 需 要 人 工 转换 和 进行 验证 。 这 种 设 


剖 越 来 越 复杂 ， 简 单 地 通过 


传统 的 两 


回 定 的 测试 通道 ,但 可 


28 


控制 


器 中 


和 扫 


任 ， 需 要 花费 较 长 的 测试 调试 时 间 , 继而 会 造 


MESE M 


读 写 端口 来 控制 


。 我 们 基于 符合 IEEE1149.1 标准 的 测试 访问 端 
层 测 试探 制 结构 〈 例 如 主 从 结构 ) 在 内 骨 核 数 成 
贯穿 整个 芯片 ， 造 成 物理 设计 的 困难 
判 信 号 的 传输 限制 在 一 个 物 


控制 器 


困难 。 而 这 


设计 的 复杂 度 。 


到 7 给 出 了 一 个 多 层次 的 测试 访问 端口 控制 器 结构 。 在 多 核 蔚 片 的 设计 中 ,如 果 核 的 个 
Ao, Ej 
一 般 和 
并 不 可 能 给 每 个 核 都 分 配 


F 单 独 的 核 进行 设计 ， 可 能 造成 逻辑 和 物理 设计 过 于 复杂 。 为 了 节省 设计 时 间 
巴 儿 个 逻辑 关系 相近 的 核 作 为 一 个 核 禾 ,局 片 内 部 可 以 有 多 个 核 禾 。 随 着 读 写 个 数 的 
以 给 同一 个 核 秘 内 所 有 的 核 分 配 固定 上 


"uit 


Cc cr WH o 


的 测试 通道 。 多 层次 的 控制 结构 | 


测试 控制 单 7 


元 (BCU 
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Block Control Unit) 组成。 测试 控制 单元 包含 一 个 符合 IEEEI149.1 的 测试 访问 端口 控制 器 ， 


支持 最 基本 的 EXTEST、PRELOAD/SAMPLE 和 BYPASS 指令 ， 


对 码 器 。 核 控制 单元 BCU 包含 一 个 核 测 


核 复 控制 单元 为 核 艇 的 测试 


单元 、 核 饼 控 制 单元 的 指令 寄存 器 顺序 连 
核 控 制 单元 的 指令 寄存 器 是 核 驴 


是 核 族 控制 单 


控制 器 ， 包 括 一 个 核 艇 指令 寄存 器 和 一 个 核 艇 指令 i 

试 指令 寄存 器 和 一 个 核 测试 指令 译 码 器 。 测试 控制 : 

接 ， 并 可 以 通过 TDI 和 TDO 端口 顺序 进行 访问 ， 而 

元 指令 寄存 器 的 一 部 分 的 复制 ， 通 过 流水 的 方法 顺序 传 到 各 个 核 中 ， 
TDO 进行 访问 。 下 面 将 以 图 7 为 例 对 这 三 个 部 分 分 别 进 


测试 控制 单元 中 的 测试 访 


图 7. 可 扩 


展 的 基于 核 秘 的 多 层次 测试 访问 端 


问 端 口 控制 器 除了 可 以 用 来 访问 旁 路 寄存 器 


并 不 直接 通过 TDI 和 


行 描述 。 


zz] 


A 


控制 器 


(BYPASS 


REG)、 边 界 扫描 存储 器 (BSCAN REG) 外 ， 还 可 以 用 来 访问 指令 寄存 器 (IR)、 测 试 指令 


寄存 器 〈TIR) 和 各 个 核能 控制 


的 核 饼 的 标识 符 (CID)， 并 
每 个 核 筷 可 以 单独 进行 测试 


时 进行 测试 。 


能 控制 单元 使 
处 于 该 模式 四 


H 


ENT 


中 IR 存储 器 存储 基本 的 IEEE1149.1 指令 。 


进行 访问 。 
XU E^) TT ATA 


单元 内 部 的 指令 寄存 器 〈CIR) 顺序 连接 
当 测 试 相 应 的 核 簇 时 ，TIR 内 部 需要 移入 相应 
TDec 解码 器 输出 相应 核 秘 的 使 能 信号 并 i 


~ 


当 整 个 芯片 处 于 


 ， 蔚 上方 中 所 有 的 


UH. H TOR RIA 


而 成 的 IR_total。 


E EO tb EP C. 


< 享 测 试 通道 , 几 个 核 秘 可 以 任意 组 合同 


于 功能 模式 时 ，IR_total 内 的 所 有 触发 器 都 为 1， 使 所 有 
吏 能 信号 无 效 ， 处 于 旁 路 指令 (bypass) 状态 。 世 片 中 还 设计 了 一 种 调试 模式 ， 
触发 器 连 成 一 条 调试 链 (debug Chain), 
这 个 调试 链 既 可 以 用 在 预 烧 (Burm-In〉 和 老化 测试 上 


以 通过 时 钟 控制 ,停止 芯片 运行 ， 并 通过 JTAG 3r 


虫 发 器 的 值 对 分 析 和 诊断 芯片 出 现 


核 饼 控制 单元 是 核 秘 测试 控制 模块 ， 顶层 
制 单元 内 部 还 可 以 继续 分 级 ， 分 为 子 核 簇 控 制 单 元 ， 例 如 分 为 CCU0、CCU1、CCU2、 
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的 核 


通过 TDI 和 TDO 端 
于 测试 仪 的 限制 可 


少 )， 也 可 以 用 在 芯片 正常 功能 的 在 线 调试 。 当 芯片 功能 运行 出 现 问题 时 ， 可 


描 出 芯片 内 部 所 有 触发 器 的 状态 。 
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的 故障 3 
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mg 


核 控制 单元 是 核 测 试 控制 模块 ， 每 个 核 控 制 单元 的 和 


上 了 测试 组 合 的 
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的 方式 对 核 复 控 制 单元 的 所 有 测试 通道 
的 数目 和 内 部 核 的 个 数 以 及 核 测试 通道 
组 测试 通道 进行 测试 。 核 篮 控制 
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通过 测试 控制 单元 、 


做 片上 比较 。 选 中 核 的 扫 
F 每 个 同 构 核 的 扫 


核 复 控 制 单元 和 核 控 表 
单独 测试 或 者 和 不 同 核 秘 内 的 核 同时 进行 测 


| 上 单元 的 控制 ,可 以 完成 对 同一 核 筷 内 的 核 进 
试 。 同 一 核 篮 内 的 核 由 于 共享 同一 组 测试 通 


这 部 分 上 


日 对 于 扫 


试 


pa 


的 顺序 可 以 根据 物理 


于 异 构 核 只 能 单独 进行 测试 ， 而 对 于 同 构 核 通过 一 


种 同 构 核 片上 比较 机 制 可 以 完成 同 


器 的 特点 ,我 们 设计 了 一 种 简 
向 量 来 完成 对 所 有 同 构 核 的 测试 。 


的 设计 将 在 下 一 节 进 行 描述 。 而 对 于 MBIST 来 说 ， 完 全 可 以 通过 
和 测试 模式 来 实现 多 个 核 内 的 所 有 MBIST 同时 测试 或 单个 核 内 的 所 有 MBIST 
测试 来 说 实现 相对 简单 。 


同 构 核 扫描 测试 访问 机 制 的 设计 


针对 同 构 多 核 处 理 
组 测 
| 的 结构 


于 每 个 核 的 物理 位 置 不 同 ， 扫 


E 易 行 的 带 有 片上 比较 的 扫描 测试 访问 
图 8 给 出 了 基 导 


F 四 个 同 构 核 的 扫 


测试 输入 向 量 是 通过 流水 的 方式 传播 到 每 个 同 构 核 


设计 位 


置 的 需求 进行 任意 调换 。 同 时 为 了 保证 每 个 IP 


AC A 
isters, SIBR ) 。 


俞 出 被 选 ! 


描 输 出 上 


Output Balance Register, SOBR). 


ETRAS S 


方面 ， 检 测 故 障 有 时 候 不 需要 对 所 有 的 触发 器 和 原始 输入 〈PI) 进行 赋值 
的 触发 器 和 原始 输出 〈PO) 进行 观测 。 
向 量 生成 过 程 中 


另外 ， 


的 存在 会 
导致 的 比较 错 


破坏 同 构 核 之 i 


比较 器 只 对 硬 


XE E 


日 同 的 数据 ， 每 个 核 都 包含 了 不 同 数目 的 扫 


核 的 扫描 测试 结果 , 其 他 同 构 核 的 扫描 罗 
输出 同样 也 是 通过 流水 的 方式 传递 至 


输入 平衡 寄存 器 (Scan 


偷 出 和 被 选中 核 的 扫描 输 
的 每 个 同 构 核 。 为 了 


I 下 游 


的 时 刻 相同 ， 每 个 同 构 核 后 提 


RATH 出 平衡 寄存 器 (Scan 


^y d 


元 Cmacro cell) 〈 比 如 处 理 器 核 中 的 缓存 存储 器 ) 的 存在 ， 电 路 中 不 可 避 
免 地 会 有 很 多 不 确定 状态 的 点 ， 即 这 些 点 的 值 


是 未 知 的 ， 而 这 会 导致 向 量 产生 X 位 。 男 一 


这 些 不 需要 观测 的 点 大 
用 户 施加 的 一 些 和 时 序 相 关 的 限制 也 会 导致 向 量 
司 的 比较 结果 ， 引 起 比较 结果 的 错误 。 为 了 避免 
Hx, ， 我 们 采用 了 额外 的 输入 管 脚 输入 屏蔽 信息 
《0 或 1) 进行 比较 。 需 要 的 额外 管 脚 数 


， 也 不 需要 对 所 有 
也 表现 为 X 值 。 
HAP HEI X fü. X 
向 量 中 x 的 存在 所 
H (Mask) 到 每 个 比较 器 ， 使 得 
等 于 扫描 输出 管 脚 的 数目 。 在 


E 问 量 响 


DINA 
&l 
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含有 压缩 结构 的 电路 中 ， 可 以 采用 非 对 称 〈asymmetrical) 的 压缩 结构 来 减少 扫描 输出 管 脚 
的 数目 ， 从 而 减少 额外 的 输入 管 脚 。 为 了 降低 对 时 序 的 要 求 ， 扫 描 屏 蔽 信息 也 是 通过 流水 的 
方式 传播 到 每 个 同 构 核 。 


HJ 
Is 触发 器 


à S ak ZE 
Heores IEEE EDA 


[| 
O 
器 | L 


Err _ flg; 


图 8. 同 构 核 片上 扫描 比较 结构 


DS 


下 面 根据 图 8 详细 描述 所 设计 的 扫描 测试 访问 机 制 。 


扫描 输入 数据 (Scan in〉 依 次 通过 流水 触发 占 (Pipeline Reg) 进入 不 同 的 内 核 Coreo、 
Corel、Corez 和 Core; 的 SIBR 中 。 屏 蔽 数据 (mask data? 也 依次 经 过 流水 触发 器 Mreg 进入 
Coreo、Core1、Core2 和 Cores。 而 测试 啊 应 数据 首先 通过 SOBR 然后 再 通过 流水 触发 器 按照 
这 个 顺序 依次 经 过 Core, Core; 和 Cores 传送 到 扫描 输出 端口 (Scan out)。Coreo 有 4 个 SIBR 
F 0 SOBR, Core; fj 3 ^ SIBR FH 1^ SOBR, Core; fj 2 ^ SIBR 和 2 个 SOBR，Cores 
有 1 个 SIBR 和 3 个 SOBR。 这 些 输入 和 输出 的 平衡 触发 器 和 4 个 扫描 输入 输出 的 流水 触发 
器 相配 合 , 使 得 这 四 个 核 都 能 够 在 延迟 4 个 节拍 后 得 到 扫描 输入 数据 , 在 4 个 节拍 后 输出 扫 
输出 数据 ， 同 时 保证 了 4 个 核能 够 同时 进入 移 位 状态 和 捕获 状态 。 


屏蔽 信息 (mask data). 从 向 量 文 件 中 抽取 。 如 果 向 量 响应 中 某 位 为 确定 值 0 或 1， 则 相 
应 的 mask 位 为 0; 如 果 响 应 值 为 X， 即 不 进行 观测 ， 则 相应 的 mask 位 为 1。 这 样 就 能 屏蔽 
Bü X 的 影响 ， 保 证 比较 结果 的 正确 性 。 由 于 基准 核 的 测试 响应 数据 到 达 每 个 核 的 时 间 不 一 
样 ， 所 以 每 个 核 开 始 比 较 的 时 间 也 不 一 样 。 如 果 Coreo 直接 被 观测 ， 则 Core; 首先 开始 比较 
操作 ，CoremD 最 后 开始 比较 操作 。 一 般 Coren 是 在 m 个 时 钟 周期 后 开始 比较 操作 的 ， 这 就 
要 求 在 前 m 个 时 钟 周 期 ， 传 播 到 Corey 的 屏蔽 位 必须 为 1。 从 屏蔽 信息 输入 端口 来 输入 这 些 
mask 位 是 不 可 行 的 ， 因 为 屏蔽 信息 到 达 Core, 也 需要 m 个 时 钟 周期 。 我 们 采用 特殊 的 流水 
寄存 器 Mreg 来 解决 这 个 问题 。 这 些 特殊 的 Mreg 寄存 器 能 在 扫描 准备 阶段 Ctest setup) 
和 扫描 捕获 阶段 (capture) 过 程 中 捕获 “1” 值 。 这 样 ， 对 于 Corem， 在 前 m 个 时 钟 周期 ， 
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保存 在 Mreg 寄存 器 中 的 “1” 用 来 屏蔽 掉 相 应 的 比较 ，m 个 时 钟 周期 后 


的 数据 用 来 屏蔽 掉 对 X 值 的 比较 。 


i 


除了 最 上 游 的 Coreo 之 外 ， 其 它 的 核 都 包含 一 个 比较 器 ， 用 以 比较 ; 


游 核 的 响应 ， 并 给 出 Err. flg 信号。 


如 果 对 四 个 同 构 核 一 块 进行 测试 ， 则 Coreo 应 首先 被 直接 观测 ， 


E 


， 来 自 屏 蔽 信息 输入 


辫 核 的 响应 与 来 自 上 


的 响应 作为 基准 响应 


与 其 它 核 进行 比较 ， 即 控制 Core0_sel out-1,Corei sel out=0, Core2_sel out-0, 


Core3 sel outz0. ATE 设备 对 
障 ， 同 时 Err_flg(1~3) 分 别 给 出 
的 响应 与 期 望 响应 完全 一 致 , 则 说 


HH Coreo 不 存在 故 


Bi. 那么 Err_f1g(1~3) 给 出 


bs, JJ 


这 时 还 需要 新 一 轮 的 测试 。 当 Coreo 存在 故障 时 ， 需 要 
zR, Cores, Core, 5 Core, 进行 比较 来 判断 其 正确 性 ， 


Core1_sel_out=1, Core2 sel out-0,Core3 


S 


故障 时 ，Core Cores 是 否 存在 故障 则 分 别 
R; 否则 还 需要 进 


测试 就 可 以 对 所 有 的 同 构 核 进行 判定 ， 最 坏 ' 
况 )， 需 要 4 轮 测试 才能 对 所 有 的 核 进行 判定 。 


某 些 情况 下 ， 基 于 功 耗 的 考虑 ， 一 
Bt Cwafer test)， 圆 片 未 进行 切 
所 有 的 核 一 起 测试 , 极 易 因 
可 以 选择 少数 核 进 行 同 时 测试 。 比 如 一 次 可 以 选择 
行 测试 。 


片上 多 核 处 理 器 已 经 成 为 微 处 理 器 设计 的 一 个 
性 的 急剧 增加 ,给 片上 多 核 处 理 器 的 测试 设计 种 来 
剧 增长 造成 测试 向 量 、 测 试 时 间 和 测试 开销 的 急 
规模 不 断 地 增加 , 但 芯片 的 读 写 端 口 数 和 单 核 处 
试 通道 资源 对 大 规模 处 理 器 进行 测试 是 多 核 处 理 器 
采用 了 多 层次 的 基于 核 艇 的 测试 


6 


因为 Core; 的 响应 是 在 测试 仪 上 进行 比较 
由 Err_flg2 和 Err_f1g3 给 出 ， 测 试 过 程 结 


功 耗 过 大 而 造成 对 芯片 的 损害 。 如 


的 ， 不 是 片上 比较 的 。 


步 的 测试 来 判定 Core, 和 Core; 是 否 存 在 故障 。 依 此 类 
核 是 否 存在 故障 都 被 判定 。 可 以 看 出 ， 最 好 情况 下 《Coreo 不 存在 故障 的 情况 
青 况 下 (Core, Core, 和 Core; 都 存在 故障 的 情 


股 不 同时 对 所 有 的 核 进行 测试 。 比 如 ,在 
割 ， 所 有 的 芯片 是 紧 挨 着 ， 这 种 情况 下 散热 效果 不 好 ， 如 果 


期 望 响 应 与 Coreo 的 响应 进行 比较 , 判断 Coreo 是 否 存在 故 


Coreil Core, Core; 与 Coreo 进行 比较 的 结果 。 如 果 Coreg 
BA Err flg(1-3)9 ct T Coreg- 
是 否 存在 故障 ， 测 试 过 程 结 束 ， 如 果 Coreo 的 响应 与 期 望 响应 不 一 致 ， 则 说 明 Coreo 存在 故 
的 信息 就 不 具有 参考 性 ， 只 是 说 明了 与 Coreo 的 结果 是 否 一 致 ， 
各 Coreo 旁 路 掉 ， 直 接 输出 Core, 的 
即 控制 CoreO sel out-0, 
el out-0. XXHj, Err. flg1 的 输出 


当 Core; 不 存在 


， 直 到 所 有 的 


J; 只 需要 一 轮 


圆 片 测试 阶 


而 个 核 进行 测试 或 者 一 次 


E 对 功 耗 要 求 比较 严格 的 情况 下 ， 


只 选择 一 个 核 进 


主流 方向 。 片 上 多 核 处 理 器 的 规模 及 复杂 


了 


巨大 的 挑战 。 一 方面 ， 品 体 管 规模 的 急 
剧 增 长 。 男 一 方面 ， 虽然 多 核 处 理 器 芯片 的 


理 器 相 比 基 本 保持 不 变 。 如 何 利 
俐 的 一 个 重要 问题 。 本 文 提出 一 种 
控制 方法 , 能 够 根据 读 写 的 物理 位 置 合理 地 分 本 


测试 面 


用 有 限 的 测 


LC 给 每 个 核 禾 


相应 的 测试 通道 , 并 采用 流水 的 方法 把 测试 数据 传 到 各 个 模块 中 ,大 大 降低 了 时 序 的 要 求 和 


物理 设计 的 鸡 


E 度 。 而 且 为 了 降低 测试 开销 ,采用 了 相 邻 核 间 的 比较 机 


症 。 这 种 技术 既 避 人 免 了 


复杂 的 控制 指令 的 输入 ,又 可 实时 地 输入 屏蔽 位 ,同时 还 能 使 用 商业 的 ATPG 工具 生成 测试 


向 量 ， 大 大 降低 测试 设计 的 复杂 度 ， 提 高 了 应 用 的 
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